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Задача ЗО распознавания лиц: современные 
методы решения 


В статье рассмотрено современное состояние проблемы зЬ распознавания лиц, приведены принципы 
работы существующих систем трехмерного распознавания. Представлены способы решения ключевой 
задачи в области трехмерного распознавания — получения трехмерной информации о лице. Рассмотрены 
распространенные методы зЬ распознавания лиц. 


Введение 


Главной задачей в области распознавания зрительных образов по-прежнему 
остается распознавание лиц. Множество исследований и разработок посвящено этой 
проблеме, однако эффективность существующих систем распознавания лиц еще далека 
от возможностей человека. 

В настоящее время актуальным и интенсивно разрабатываемым направлением 
исследований в области распознавания зрительных образов, в особенности лиц, явля- 
ется направление, связанное с получением трехмерной информации об объекте. 

Алгоритмы трехмерного распознавания используют информацию о глубине и 
кривизне поверхности, в отличие от систем двухмерного распознавания, традиционно 
использующих признаки, основанные на яркости пикселей изображения. Следова- 
тельно, трехмерные дескрипторы имеют большую точность в описании особенностей 
поверхности; лучше подходят для описания свойств лица в областях щек, лба и под- 
бородка; инвариантны к ракурсу и освещению. 

На данный момент существует задача создания системы распознавания лиц на 
основе извлечения ЗО информации из видеопотока, состоящая в следующем: человек 
последовательно поворачивает голову по трем степеням свободы (наклоны вперед- 
назад и влево-вправо, повороты влево-вправо) перед камерой, по полученной последо- 
вательности кадров строится трехмерная модель головы и производится распознавание 
лица (сопоставление полученной модели с имеющимися моделями в базе данных). 

Целью данной статьи является рассмотрение современных методов ЗО распо- 
знавания лиц для решения поставленной задачи разработки эффективной системы 
распознавания лиц. 


Современное состояние проблемы ЗО распознавания лиц 


Существующие на данный момент системы 3) распознавания лиц используют 
специальное оборудование для реконструкции трехмерной модели лица (сенсорные 
системы). Сенсорные технологии ЗО распознавания делятся на три категории: 

1. Стерео. Используются две камеры с известным взаиморасположением для 
получения стереопары изображений объекта; на полученных изображениях находятся 
соответствующие точки и вычисляется положение сопоставленных точек в трехмер- 
ном пространстве. 

2. Структурированный свет. Этот подход использует камеру и световой проектор: 
структурный свет проецирует на лицо специальную текстуру, а камера регистрирует 
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искажения этой текстуры на объемном объекте. С помощью методов восстановления 
формы по текстуре вычисляется расположение точек в трехмерном пространстве. 

3. Лазерное сканирование. Лазерные сканеры применяют свет как источник для 
обнаружения расстояния до объекта сканирования. Они измеряют время отражения 
лазера от объекта и получают информацию о глубине расположения точек на его 
поверхности. 

Несмотря на то, что подобные технологии дают очень высокий результат (ошибка 
распознавания в пределах одного процента), даже при идеальном освещении сен- 
сорные системы подвержены недостаткам: частым случаем является появление на 
модели артефактов в виде «дыр» и «выступов» из-за отсутствующих данных и 
ошибок восстановления. Другим недостатком сенсорных систем является маленькая 
глубина резкости для получения необходимой информации, для стереосистем — 
около 0,3 м, для систем со структурированной подсветкой — порядка одного метра. 
Еще одним недостатком является сложное и зачастую дорогостоящее оборудование. 

На сегодняшний день можно отметить следующие компании, занимающиеся 
развитием технологии сенсорного ЗО распознавания: беотейлх (США), Сепех ТесВ- 
101051ез (США), Влозсгур! (Канада), Г.-1 еп у Зо[аноп$ (Англия). В России в данном 
направлении работает компания Ацес Оточр. 

Системы ЗО распознавания лиц, не использующие дополнительное оборудова- 
ние, существуют только в качестве опытных разработок и коммерческого применения 
пока не имеют. 


Способы получения трехмерной информации о лице 


Для того чтобы получить трехмерную информацию об объекте, используются 
алгоритмы, объединенные в англоязычной литературе под названием «зваре Нот Х» 
(получение формы с помощью Х), где под Х понимаются самые различные методы. 
Рассмотрим те из них, которые наиболее перспективны с точки зрения решения 
поставленной во введении задачи. 

Восстановление формы по теням ($Варе гот звадте, ЗЕ). Задача восста- 
новления формы объекта по изменению яркости пикселей изображения основана на 
способности человека определить форму объекта, используя визуальную информацию 
о характере отражения света на его поверхности. Данная задача является задачей, 
обратной задаче визуализации (рендеринга), когда яркость точки моделируемой сцены 
зависит от ряда факторов и вычисляется согласно заданной математической модели 
освещения [1]. 

Среди факторов, влияющих на яркость точки поверхности объекта, можно выде- 
лить следующие: 

1. Свойства и расположение источников света. 

2. Характеристики поверхности, определяющие ее отражающие свойства. 

3. Ориентация участка поверхности, соответствующего данной точке в прост- 
ранстве. 

4. Точка зрения наблюдателя. 

В качестве математической модели взаимодействия света и поверхности обычно 
используется модель рассеяния Ламберта, описывающая функцию зависимости яркости 
точки изображения от интенсивности единственного источника света, альбедо (коэф- 
фициента отражения) поверхности и скалярного произведения единичной нормали к 
поверхности и вектора направления на источник света. 

Поскольку данная математическая модель содержит большое количество неиз- 
вестных параметров, чтобы свести задачу ЗЕ$ к решаемому виду, применяются раз- 
личные упрощения, в основном относительно направления освещения. 
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Соответственно недостатками алгоритмов «паре от зва те» являются: необ- 
ходимость априорных знаний о законе рассеяния, слишком общие допущения об от- 
ражательных свойствах поверхности, приводящие к неправильному восстановлению 
формы поверхности. Наиболее полно проблема восстановления формы по закраске с 
точки зрения распознавания лиц освещена в [2]. 

Восстановление формы по стереопаре (5варе гот $егео). Построение трёх- 
мерных моделей по стереопаре традиционно рассматривается как две последователь- 
ные задачи: стереосопоставление и построение трёхмерных моделей по множеству 
точек. Задачей алгоритма является получение данных о расстоянии до объектов сцены, 
на основании которых строится карта смещений (41зрагйу тар). 

Большинство существующих алгоритмов стереосопоставления может быть раз- 
бито на две категории решений: локальную и глобальную. Локальные методы осно- 
ваны на поиске характеристических точек (еаге ро) и их сопоставлении между 
двумя кадрами. Глобальные методы ищут соответствие между изображениями по 
каждой паре пикселей, а поскольку бывают области, где какая-либо текстура отсут- 
ствует, то налагаются ограничения гладкости. Хорошие алгоритмы ищут карту смеще- 
ний как кусочно-гладкую функцию, с ограниченным количеством линий разрыва и 
учитывают, что некоторые точки видны только на одном изображении. Вообще говоря, 
локальные алгоритмы являются с точки зрения вычислений менее затратными, а гло- 
бальные алгоритмы формируют более точные карты смещений. 

Восстановление трехмерной сцены по стереопаре способно дать качественный 
результат и восстановить трехмерный образ практически для всех точек исходного 
изображения, однако требует высокой точности калибровки камер стереопары. 

При недостатке пространственной структуры объекта (отсутствии ярко выражен- 
ных характерных точек и текстуры) алгоритмы стереовосстановления находят только 
грубые детали формы объекта. 

Восстановление формы по движению (5Варе гот тойоп, ЗЕМ). Данный 
метод реконструкции трехмерных сцен использует относительное движение между ка- 
мерой и сценой в последовательности изображений [3]. Как и в стереовосстановлении, 
задачу ЗЕМ можно разделить на две подзадачи: нахождение взаимно однозначного 
соответствия характеристических точек на последовательных кадрах и реконструкция 
сцены. Но есть и некоторые важные различия. Разница между последовательными 
кадрами намного меньше, чем между изображениями в типичной стереопаре, поскольку 
видео снимается с частотой несколько десятков кадров в секунду. Также, в отличие 
от стерео, в движении относительное смещение между камерой и сценой не обязательно 
вызвано одинаковым трехмерным преобразованием. 

Что касается поиска соответствий, то алгоритм ЗЕМ предоставляет множество 
тесно связанных изображений (кадров видео) для анализа, и это является преимуще- 
ством данного подхода. Во-первых, здесь могут быть использованы методы отслежи- 
вания, которые используют историю движений для предсказания различий в сле- 
дующем кадре. Во-вторых, проблема соответствия также может быть рассмотрена 
как задача оценки видимого движения на изображении (оптический поток). 

Для определения соответствий используется, как правило, два вида методов. 
Дифференциальные методы применяют оценки производных по времени и поэтому 
требуют плотную выборку последовательных изображений. Этот метод работает с 
каждым пикселем изображения и приводит к плотным измерениям. Другие методы 
используют фильтр Калмана для сопоставления и отслеживания точечных харак- 
теристик. Эти методы работают с небольшим количеством точек изображения и 
приводят к разреженным измерениям. 
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В отличие от задачи нахождения соответствий, задача реконструкции в данном 
подходе более сложна по сравнению со стереовосстановлением. Восстановление 
движения и структуры кадр за кадром оказывается более чувствительным к шуму. 
Причина в том, что базовая линия между последовательными кадрами очень мала. 

В задаче восстановления формы по движению применяются алгоритмы факто- 
ризации матриц, с помощью которых можно восстановить положение и ориентацию 
камер, внутренние параметры камер (фокусное расстояние), т.е. параметры, которые 
очень часто неизвестны. Кроме того, большое количество кадров дает возможность 
проверки правильности сопоставления. Дополнительно в ряде случаев можно еще и 
получать оценки точности восстановления, соответствующие именно данной сцене. 

Методы ЗЕМ, основанные на факторизации матриц, не работают непосред- 
ственно с изображениями, а требуют на вход координаты характеристических точек 
изображений в пикселях и наличие у каждой характеристической точки маркера 
(номера), причем на всей последовательности изображений одной и той же точке 
реальной сцены должен соответствовать одинаковый маркер. Таким образом, вос- 
станавливаются трехмерные координаты только некоторых точек сцены, поэтому 
возникает задача интерполяции поверхностей сцены между восстановленными точ- 
ками модели. 


Алгоритмы трехмерного распознавания лиц 


Среди различных подходов ЗО) распознавания можно выделить три основных: 
анализ формы ЗО поверхности лица, статистические подходы и использование пара- 
метрической модели лица [4]. 

Анализ формы 3) поверхности. Методы, основанные на анализе формы трех- 
мерного изображения лица, используют локальные или глобальные характеристики 
поверхности, которая описывает лицо, например, кривизну, профили линий, метрики 
расстояний между двумя поверхностями. 

Кривизна поверхности используется для сегментации поверхности лица по при- 
знакам, которые могут быть использованы для сравнения поверхностей. Другой подход 
основан на ЗО) дескрипторах поверхности лица в терминах средней и гауссовой 
кривизны либо в терминах расстояний и отношении углов между характерными 
точками поверхностей. Еще одним локально-ориентированным методом является 
подход, использующий точки-сигнатуры. Идея метода заключается в формировании 
представления-описания выбранной точки по соседним точкам вокруг заданной 
точки поверхности. Эти сигнатуры точек используются для сравнения поверхностей. 

Глобальные методы задействуют всю информацию о трехмерном изображении 
лица как входную для системы распознавания. Например, модель лица выравнива- 
ется на основе его зеркальной симметрии, после чего выделяются и сравниваются 
профили лица вдоль плоскости выравнивания. Также используется метод сравнения 
моделей лиц на основе максимального и минимального значений и направления 
кривизны профилей. 

Еще один подход основан на методе сравнения расстояний между поверхно- 
стями для распознавания. Одни методы основаны на вычислении метрик наименьших 
расстояний между поверхностями моделей, другие — на измерениях расстояния не 
только между поверхностями, но и текстурой на поверхности. Однако существен- 
ным ограничением данных методов является то, что лицо не должно деформиро- 
ваться и его поверхность является жесткой. 

Третий подход берет за основу извлечение и анализ трехмерных профилей и 
контуров, выделенных на лице. 
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Существуют еще и гибридные методы, основанные на объединении локальной 
информации о поверхности в виде локальных моментов с глобальной трехмерной 
сеткой, описывающей поверхность всего лица. В одном из таких методов значение 
функции 7(х,у), описывающей карту глубины лица в выровненной системе коор- 
динат, разлагается на Фурье-компоненты. Разложение функции на моменты (базисные 
функции) позволяет сгладить мелкий высокочастотный «шум на лице» и случайные 
выбросы. Кроме Фурье-разложения используются и другие базисные функции: сте- 
пенные ряды, полиномы Лежандра и моменты Цернике. 

Статистические методы, в частности метод главных компонент (Рипс1ра| 
Сотропеп{ Апа[у$1з, РСА), ранее широко использовались в 20 распознавании. Метод 
РСА реализован также для 3) распознавания и был расширен одновременно на ком- 
бинацию карт глубины и цвета. Альтернативным для РСА является метод линейного 
дискриминантного анализа, в котором, в отличие от РСА, один объект (заданный 
человек) задается не одним лицом, а набором моделей (3) лиц). 

Еще одним статистическим методом, также позаимствованным из 2) распо- 
знавания, является метод скрытых марковских моделей (СММ). Теория Марковских 
случайных полей позволяет строить оценки различных пространственно-переменных 
величин по изображениям, при этом накладывая на эти величины определенные 
априорные ограничения. В качестве таких пространственно-переменных величин могут 
выступать, например, значения смещения в задаче стереореконструкции. В литера- 
туре по ЗО распознаванию этот метод известен как псевдо ЗО скрытые марковские 
модели и используется, в частности, для распознавания выражений лиц. 

Использование параметрической модели лица. Ключевая идея распознава- 
ния по моделям основана на так называемых параметрических ЗО) моделях, когда 
форма лица контролируется набором параметров (коэффициентов) модели. Эти коэф- 
фициенты описывают 30 форму лица и также могут задавать цвет (текстуру) на ее 
поверхности. Данный метод использует на входе одно или несколько изображений 
лица, в основном фотографий, полученных в анфас и профиль [5]. 

Алгоритм решения задачи строится по итеративному принципу. В качестве 
исходной итерации выбирается некоторый усредненный трехмерный макет головы 
человека, и производится пошаговое его улучшение. При этом используется набор 
антропометрических точек лица, извлеченных из фотографии, который деформи- 
руется до заданной трехмерной поверхности. Параметры деформации вычисляются в 
процессе ЗО реконструкции с помощью эластичной модели. Эти параметры потом 
используются для распознавания в качестве вектора признаков данного лица. 


Заключение 


Рассмотренные выше способы восстановления трехмерной модели лица имеют 
ограничения и недостатки, которые не позволяют с их помощью решить задачу рас- 
познавания лиц по видеопоследовательности эффективно. Методы восстановления 
формы по движению, основанные на факторизации матриц, восстанавливают трехмер- 
ные координаты только некоторых точек объекта, поэтому возникает задача интерпо- 
ляции его поверхности между восстановленными точками модели. Восстановление 
трехмерной сцены по паре изображений, полученных с разных ракурсов, может дать 
точный трехмерный образ практически для всех точек исходной сцены, но требует 
высокой точности данных о взаиморасположении камер. Методы получения формы 
по теням не способны корректно восстанавливать трехмерную информацию об объекте 
в реальных условиях, когда характер освещения неизвестен и может произвольно 
изменяться. 
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Таким образом, наиболее разумным представляется комбинирование различных 
подходов, предложенное в [6]. Алгоритмы, основанные на факторизации матриц, спо- 
собны предоставить необходимую информацию о трехмерных координатах камер, 
их ориентации в пространстве и точности, с которой эти величины известны. В этом 
случае методы стереосопоставления могут дать плотное восстановление трехмерной 
поверхности объекта (для каждого пикселя изображения). 

Кроме того, интересной для проведения дальнейших исследований является воз- 
можность определения и сопоставления соответствующих точек лица в последова- 
тельности кадров видео на основе построения модели освещенности сцены. 
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А.В. Дьяченко 

Задача ЗО розшзнавання облич: сучасн! методи розв?язання 

У статт! розглянуто сучасний стан проблеми 3) розшзнавання облич, наведено принципи роботи 
1снуючих систем тривимрного розшзнавання. Представлен! способи розв’язання ключово7 задач у 
сфер! тривимрного розшзнавання — отримання тривим!рно] 1нформацй про обличчя. Розглянуто поширен! 
методи ЗО розшзнавання облич. 


А.Т. Буасйенко 

'Тье Ве\еуу оГ Модегт Мео4$ ог Оес1510п оЁЗО Еасе Весосш@оп Ргоет 

п Фе агае Фе збайе ое агё ш ЗО Ёасе гесорт оп 15 соп$14еге4, Ве \мотК рипспр[ез оЁ @гее-4итепз1опа1 
ех15Нпе зузбетз аге гезиНе4, фе \’ауз Юг 4ес151оп оЁа Кеу ргоМет ш агеа оЁ @гее-Читепз1опа] гесост оп, 
1.е. гесерйоп оЁ Фе @гее-Читепз1опа] асе шЮппабоп аге ргезещеа, гоийпе тео4$ Юг ЗО асе гесозт оп 
аге сопз14егед. 
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